@北大跨学科 | 数据科学:北大这个学科竟然教“炼丹”?!
编者按
未来的世界复杂多变,新的学术发展和突破往往出现在学科交错的边界,跨学科已成为必然之势。
北大官微将对北大的跨学科教育进行系列推送,整合科学是什么?文物保护在化学基础上会有什么突破?数据科学与大数据技术的新趋势在哪里?敬请期待……
双十一全天交易额再创新高;微信音视频日成功通话次数较去年增长106%;人工智能在IQ测试中超越人类;人类棋手不敌AlphaGo;AlphaGo Zero 3天击败AlphaGo;……2017年,一股有关人工智能、大数据的风潮席卷而来。对于北京大学数据科学与大数据方向(以下简称数据科学方向或数科)的同学来说,数据科学成为全社会瞩目的焦点,在情理之中,当然也给他们带来了一些小小的自豪感。
新浪科技统计的今年双十一交易额大数据
数据科学是什么?能吃吗?
尽管近年来数据科学热度不断飙升,“阿尔法狗大战李世石”的话题在短时间内迅速登顶微博热搜,但要问数据科学是什么,可能答案就言人人殊了。北大数据科学方向15级本科生、北大前数据科学学会会长、现元培学院学生学术协会主席伍维晨就谈到,目前对“大数据”、“数据科学”这些概念存在“滥用和误解”。数据科学强调的是对数据进行深入分析,并不必然要求大量的数据。现在的研究主要面向大数据,是为了适应数据爆炸的背景。同时,“大数据”研究也不单指研究数据量的庞大,如果只是采取简单的描述性统计,那么再大的数据量也不能称作“大数据”研究。数科领域现在最火的“深度学习”,大众看来神乎其神,却被业内的人戏称为“炼丹”——只知道炼出来是个丹,但是不知道炼丹炉内究竟发生什么了化学反应。唯一比古代的“炼丹术”好的一点,可能是古代炼丹炼不出长生不老药,而深度学习能“炼”出可应用的东西。
AlphaGo之父哈萨比斯演讲:AI就像望远镜
另一方面,由研究到从业,社会对“大数据”人才的需求量都非常大。社会需要这样的人才:不仅要有数学、计算机、统计的坚实基础,也要能懂模型算法、解决实际问题。这些,在单纯的数学或者说统计、计算机的专业难以达到;数据科学便应运而生。数据科学专业的建制人之一,北京大数据研究院院长、北大元培学院院长、中国科学院院士鄂维南教授提到专业的考量,就是在基础层面,加强从数据采集到存储的系统训练;在应用层面,加以有效培养,即把有志于研究的学生推到研究的前沿,把倾向于应用的学生引向大数据应用的各个领域,比如医疗、交通、金融、新闻与传播等,让他们熟悉各个行业自身的业务。
整合:好土发新芽
在中国面临社会变革的历史阶段,北大总是充当先锋。在大数据时代人才的培养上,北大数据科学专业也走在前面。这种担当能够实现,源于北大扎实的学科基础和缜密的考察分析。
北大的数学和信科专业水平都很高。北京大学数学科学学院(以下简称数院)学科门类齐全,教学与科研并重,理论与应用并举,是具有重要国际影响的数学科学研究和人才培养基地。长期以来,北京大学信息科学技术学院(以下简称信科)也取得了一系列国内领先、具有国际影响的重大研究成果,在我国信息科学技术发展进程中创造了多个“第一”,培养了一大批信息领域的栋梁之才,为国家信息科技产业发展做出了重大贡献。北大数学和信科扎实的专业基础为学科的交叉融合提供了条件。
数学科学学院介绍
信息科学技术学院介绍(据官网数据)
仅仅有基础还不够。其实,北大的数据科学本科方向在数院、信科两院都开设,元培数据科学则进行了培养方案的进一步优化整合。数院、信科的数据科学方向的培养方案强调数学科学和计算机科学的专业性,站在数据科学的角度讲,就包括了一些与数科不直接相关的课程,比如在纯数学领域非常重要的“解析几何”、号称信科“第一大神课”的计算机系统导论(ICS)。伍维晨曾提到的数据科学两大面向,是元培数据科学的培养方案的根据之一:“第一是统计的面向,例如概率论,数据统计;第二是计算的面向,例如数据结构与算法,算法设计与分析,优化算法。”基于这点,数科展现了以数据为核心的学科交叉融合。
自由:思考者的空气
鄂维南教授曾经将中国大学生和西方大学生作比较,认为中国大学生往往给人留下勤奋用功、大量刷题,却缺乏学习的主动性和独立思考能力的刻板印象。作为数科专业的建制人之一,他希望改变这种现状,而必要的一个手段,就是用足够的自由解放学生的自我驱动力。
数据科学15级的张宏毅对“数理逻辑”课堂上的“形式化”论题记忆犹新。通俗来讲,形式化过程就是把想要表达的意义用符号表示出来。“数学就是要研究,我们怎样去形式化以使得自然语言最严格”、“我现在说了一句话,如何用符号最能表达我的意思?我把所有的话都写成符号,是不是能表达世间所有的意思?”,从数学符号问题,张宏毅展开丰富的联想。他甚至想到“可计算性”,想到计算机的计算能力和人脑的计算能力的区别界限。虽然这些问题目前可能没有答案,但这些思考,使他不仅将数科作为他生命里的一个职业,更试图为之奠基。
张宏毅选修的数理逻辑,在北大的信科和数院都有开设,但是难度有差异。在数科,同学有较大的选择权。因为对这方面感兴趣,张宏毅选了数学学院开设的稍难的一门。事实上,数据科学方向的培养方案十分自由,2016年的培养方案是学生自己参与制定的。数科毕业的硬性学分要求是130分,比普通院系少十几分,目的就是精简课程、突出核心,同时让大家在选修课上有更多自由发挥的空间。
数据科学与大数据专业学分要求
然而,选课和设置课程的弹性,并不意味着无拘无束、流于浮泛。虽然2013年美国总统奥巴马才首次提出“big data”大数据的概念,但数据研究其实由来已久。以“数据科学导引”为例,这门课教授的内容已有几十年的研究史,课堂上会涉及比较前沿的研究,但是大部分是成熟的知识。为了更好适应大数据研究的新潮流,2015年,北京大学设立大数据与数据科学方向。与这个不断进步与发展的新兴方向一样,数据科学专业也在方案的提出、试错、修改中不断完善。
在某种意义上说,数科专业的教学和这个领域的研究状况有某种相似之处——未知中包含已知。在这样一个新专业中学习,总会有一些崭新的体验。在一些新开设的课程中,课本可能都没有正式出版。但是这些“新”不代表不成熟。正如鄂维南教授所说,“一个新的专业开设新的课程,很正常。方向新是事实,但是数据科学的基础早就有了,课程计划是很成熟的,只是这几年才变得热门而已。”在这个意义上,数科同学更像是“化学家”,通过选课、与导师交流等日常可控的选择,每时每刻塑造着全新的自己,希望能够在未来撑起一角天空。
数科同学讨论后的合影
学术之外
数科同学可不是大家印象中的刻板理科生哦!
数科同学微信群的截图
能就学术话题侃侃而谈的伍维晨对音乐很感兴趣,考取了中央音乐学院的钢琴九级(注:伍维晨参加考试时,最高级就是九级)。16年元培“一二九”合唱比赛的指挥也是他;同时他还喜欢下围棋,是中国棋院围棋业余5段。伍维晨从高中就开始担任学生会主席,现任元培学院学生学术协会主席。全面发展加上出众的领导力,“伍总”的外号一经同校的理科状元带进北大,就广为流传。
张宏毅的freestyle则展现在他对音游、日语和解谜的喜好上。音游是一种需要配合音乐与节奏做出动作的游戏,玩家在锻炼节奏感、反应速度的同时还可以欣赏音乐。从初中到高中,他还坚持自学日语。至于“解谜”中的“谜”,则是张宏毅根据“平时的奇怪脑洞”自编的。他开设了自己的公众号,分享这些谜题作品。通过这个喜好,他结交了一群拥有共同爱好的挚友,“有种白手起家创业的感觉”。和伍维晨一样,张宏毅也是数科“封神”者之一。张宏毅谦虚地说自己只是“宅”,但在学术和爱好中游刃有余的他,其实有着出众的自我把控力。
关注张宏毅的公众号之后,可以打开一个解谜论坛。上为论坛同好交流截图。
从兴趣广泛的个体代表中,我们可以窥见数科专业的整体气象。学生团队的建立、共同学习小组的建设,也是他们用更喜欢的方式去重构学习生活的尝试。置身于“自力更生”氛围的元培,他们自我创造、自我锤炼。这学期,一个一起读论文的俱乐部在学生的努力下即将建成。自由的空间让他们将兴趣的触角伸向了各个方向,以数据科学为根,盛放出绚烂夺目的花。
数据科学的未来
数据科学是一门理论性和实践性并重的学科,它有着非常理论性的面向,比如统计学理论;也有非常实践性的面向,比如数据科学在医疗、交通、环境、金融等各行各业的应用。
在医疗方面,CT图像要用X光照射,但X光对人体有伤害。用比较低剂量的X光照射可以减轻对人体的伤害。但剂量越低,噪声就越大,会加剧检测中的干扰。数据科学可以把模糊的图像还原成清晰的图像,从而解决这一矛盾。
再如无人驾驶。对人的驾驶来说,从目标的确定开始,然后对周围的环境进行判断,再由一系列复杂的生物化学反应得出对情境的判断,最后决定左拐或右拐,加油或刹车。这个过程人工智能应该怎么处理呢?这也需要数据科学。
许多数科同学即将投身于这些领域中,大展身手。如果矢志于科研,北京大学数据科学研究中心、大数据研究院这两个平台欢迎他们的到来。随着导师制度的进一步完善,学生与导师和学术前沿的对接也会更加顺利。
北京大数据研究院,数科同学未来可能的保研去向。
从播种到初生新芽,从新生到渐渐成熟,北大数据科学正以无可抵挡的速度成长。依托坚实基础、面向崭新时代,它哺育着一大批有才华、有志气的青年;它适应着社会,改变着社会,并且将不断地为社会发展注入新活力。
彩蛋:
2016年元培学院“一二九”合唱比赛掠影;请欣赏:不愿意露出正脸的帅气指挥。内容支持:
北京大学教务部
受访者:
普林斯顿大学教授、北大元培学院院长、中国科学院院士、北京大数据研究院院长鄂维南教授
北京大学元培学院于艳新老师
北京大学元培学院大数据与数据科学方向2015级学生伍维晨、张宏毅
采访:何婧涵、来星凡、刘文欣、谢蝶
撰稿:来星凡、刘文欣、谢蝶
制图:陈灿
部分图片、数据来源:受访者及网络
排版:燕唯一
责任编辑:侯雨杉